فهرست مطالب

نشریه ماشین بینایی و پردازش تصویر
سال نهم شماره 3 (پاییز 1401)

  • تاریخ انتشار: 1401/03/15
  • تعداد عناوین: 6
|
  • مصطفی نظام زاده، وحید مهرداد* صفحات 1-17
    تومور مغزی یکی از عوامل مهم در مرگ و میر است به همین منظور تشخیص به موقع و مناسب برای درمان تومور ضروری است. در این پژوهش از تصاویر سه بعدی برای تشخیص تومور استفاده می گردد. تصاویر سه بعدی دارای عمق می باشند و از این جهت، نقاط کوری که ممکن است در تصاویر دوبعدی پنهان بماند را می توان مشاهده نمود. در این مقاله یک روش  آستانه گیری با استفاده از آنتروپی کاپور برای تشخیص تومور مغزی در تصاویر MRI سه بعدی ارایه می شود. در روش پیشنهادی ابتدا به منظور متمایز ساختن ناحیه تومور، تصاویر به صورت سه بعدی نرمالیزه می گردند که این مزیت را دارد سطح روشنایی تومور نسبت به بقیه نقاط مغز روشن تر شود. در مرحله بعد تصویر سه بعدی در سه جهت برش داده شده و به تصاویر دوبعدی تبدیل می گردد. با اعمال دو مرحله آنتروپی کاپور به تصاویر دوبعدی  ناحیه تومور به همراه نقاطی که سطح روشنایی بالاتری  نسبت به مقدار آستانه دارند جدا می شوند. برای حذف نقاط اضافی ابتدا با روی هم قرار دادن تصاویر دوبعدی، تصویر سه بعدی ساخته شده، سپس با استفاده از فیلتر مورفولوژی سه بعدی و الگوریتم انباشتن دانه ای ناحیه تومور به صورت سه بعدی استخراج می گردد. از مزایای روش پیشنهادی حذف نواحی زاید با حفظ ناحیه تومور و پوشش تمام زوایای تومور در سه جهت می باشد. برای نشان دادن کارآمدی روش پیشنهادی از مجموعه پایگاه داده BRATS استفاده گردید که نتایج ارزیابی برای تشخیص تومور با ارزیابی ضریب تشابه، حساسیت و خاصیت به ترتیب 0.9407 و 0.9235 و 0.999 بدست آمد که نسبت به روش هایی که ارایه شده دارای عملکرد بهتری است.
    کلیدواژگان: MRI سه بعدی، مورفولوژی سه بعدی، الگوریتم انباشتن دانه ای، آنتروپی کاپور
  • محسن تابع جماعت، هدی محمدزاده* صفحات 19-34
    هدف از این مقاله، بازشناسی کنش افراد با استفاده از اطلاعات سری های زمانی استخراج شده از دنباله های اسلکتی به منظور استفاده در سامانه های مانیتورینگ فعالیت های روزمره ی انسانها می باشد. به این منظور، هر کنش به صورت یک سری زمانی چند بعدی بیان شده و سپس با استفاده از مفهوم "شبه کرنل مبتنی بر فاصله ی پیچش زمانی پویا" به یک فضای برداری نگاشت می گردد. در ادامه، به منظور استفاده از نسبت همبستگی-تمایز دنباله ها در پروسه ی شناسایی، این فضای برداری توسط روش فیشر تنظیم شونده به یک فضای تمایزی نگاشت شده و تصمیم گیری نهایی در خصوص محتوای حرکت در فضای حاصل انجام می پذیرد. بر خلاف سایر روش های کرنلی موجود، الگوی همترازی حاصل از پیچش زمانی، موجب می شود تا اثر شیفت، و انقباض و انبساط های زمانی دنباله ها در فضای کرنل به کمترین میزان ممکن کاهش یابد. همچنین، روش ما پیچیدگی های محاسباتی و محتوایی موجود در استخراج ویژگی های استاتیک و دینامیک دنباله های حرکتی را حذف نموده و در مقابل، آنها را در قالب الگوی همترازی در فضای برداری کرنل مورد استفاده قرار می دهد. نتایج ارزیابی ها بر روی سه پایگاه داده ی معروف TST، UTKinect و UCFKinect، قابل رقابت بودن عملکرد روش ارایه شده با برترین روش های موجود در بازشناسی کنشهای انسانی را نشان می دهد.
    کلیدواژگان: شناسایی کنش، پیچش زمانی پویا، حقه کرنل، بیان ویژگی نهفته
  • زهرا داودی* صفحات 35-48
    با توجه به اهمیت تصاویر در کاربردهای متفاوت،کیفیت آن ها مورد توجه است. علی رغم پژوهش های انجام شده در این حوزه، همچنان نمی توان کیفیت تصاویر با تخریب های متفاوت را به درستی به دست آورد. در این مقاله، یک معیار ارزیابی بی مرجع کیفیت تصاویر چندتخریبه، معرفی شده است. این معیار برپایه ترکیب ویژگی های ساختاری و روشنایی تصویر ، کیفیت تصاویر را می سنجد. طبق پژوهش های انجام شده، این ویژگی ها تحت تاثیر تخریب های متفاوت، به صورت قابل توجهی تغییر می کنند. در ابتدا ویژگی های مدنظر از تصاویر استخراج شدند. سپس توسط الگوریتم بهینه سازی ازدحام ذرات، ترکیب بهینه ای از ویژگی هایی به دست آمد که تخریب های موجود در تصاویر مجموعه داده های متفاوت را به درستی می سنجند. این ترکیب ، توسط رگرسیون بردار پشتیبانی  به مدل آموزش داده شد تا بتواند به بررسی کیفیت سایر تصاویر با همین تخریب ها بپردازد. به دلیل جامعیت ویژگی های انتخاب شده، این معیار توانایی سنجش کیفیت تصاویر با انواع تخریب ها را دارد. طبق نتایج حاصله از اجرای معیار، بهبود قابل توجهی در ارزیابی کیفیت تصاویر چند تخریبه و حتی تک تخریبه داشتیم. در این پژوهش، علاوه بر ارایه یک معیار جامع تاحد امکان بتواند ابعاد تغییر یافته تصویر بعد از تخریب را بسنجد، ترکیب بهینه ویژگی های موثر در سنجش کیفیت تصاویر تحت تاثیر تخریب یا تخریب های متفاوت،به دست آمد.
    کلیدواژگان: ارزیابی کیفیت تصویر بی مرجع، روش های ریاضی، تصاویر چندتخریبه، ترکیب ویژگی ها، الگوریتم بهینه سازی ذرات
  • سیده فروه موسوی، اعظم کرمی* صفحات 49-63
    تخمین عملکرد و بررسی روند رشد در گونه های مختلف از یک محصول در کشاورزی دقیق برای محققین و کارشناسان حوزه کشاورزی بسیار حایز اهمیت است. در این مقاله روشی نوین مبتنی بر یادگیری عمیق تک مرحله ای به نام GP-YOLOv5 برای شناسایی خودکار تاسل در تصاویر پهپادی از یک مزرعه بزرگ ذرت در تاریخ های مختلف رشد و تخمین زمان گل دهی ارایه شده است. در این راستا ابتدا به دلیل رشد تعداد کمی از تاسل ها در مراحل اولیه رشد برای داده افزایی از شبکه مولد متخاصم GP-GAN استفاده شد. سپس برای شمارش و تشخیص تاسل ها ساختار و پارامترهای آشکارساز YOLOv5 برای افزایش دقت مطابق با پایگاه داده اصلاح شد. در ادامه شمارش گیاهان در مراحل اولیه کاشت به عنوان یک پارامتر مهم در تعیین تاریخ گل دهی در نظر گرفته شد. شمارش گیاهان با استفاده از آشکارساز CenterNet انجام شده است و از الگوریتم های درون یابی و پیش بینی برای تعیین تاریخ گل دهی استفاده شد. روش پیشنهادی با دو روش معتبر مبتنی بر تشخیص  CenterNet و  روش مبتنی بر رگرسیون TasselNetv2+ برای شمارش تاسل ها مقایسه شد. دقت میانگین در تشخیص صحیح تاسل ها در روش پیشنهادی 81/96 و در روش CenterNet، 78/81 درصد است که نشان می دهد دقت روش پیشنهادی بالاتر از روش CenterNet است.
    کلیدواژگان: شبکه های مولد متخاصم، یادگیری عمیق، YOLOv5، شناسایی تاسل، تخمین تاریخ گل دهی
  • نرگس حسن پور، امید اسلام، حدیث محسنی* صفحات 65-78
    شبکه های عمیق نوعی از روش های یادگیری هستند که قابلیت مدل کردن روابط سطح بالای موجود در داده ها را دارند. یکی از پرکاربردترین انواع شبکه های عمیق، شبکه های پیچشی یا کانولوشنی هستند که با بهره گیری از لایه های کانولوشن بر روی تصاویر قادر به مدل کردن وابستگی های مکانی در آن ها هستند، اما ساختارهای سلسله-مراتبی مکانی درون تصویر را در نظر نمی گیرند. شبکه های کپسولی یکی از ایده های جدیدی هستند که برای مدل سازی ساختار سلسله-مراتبی ویژگی ها در تصویر پیشنهاد شده اند و در آنها از کپسول یا نورون های گروه بندی شده به همراه یک الگوریتم مسیریابی پویا استفاده می شود. با وجود کارآیی ایده ی شبکه های کپسولی بر روی مجموعه داده های ساده، عملکرد این شبکه ها بر روی داده های پیچیده هنوز در ابهام است. در این مقاله عملکرد این شبکه بر روی مجموعه داده ی پیچیده ی سرطان پوست مورد بررسی قرار گرفته است که به دلیل اهمیت تشخیص ضایعات پوستی در پزشکی، پیچیدگی تصاویر، تعداد زیاد آنها و نامتعادل بودن دسته ها در آن انتخاب شده است. برای استخراج بهتر تنوع موجود در ضایعات پوستی، تغییراتی در لایه های ابتدایی شبکه داده شد و به دلیل عدم توازن در مجموعه داده ی ذکر شده، تغییراتی در تابع هزینه ی شبکه اعمال شد. تاثیر استفاده از توابع فعال سازی مختلف در شبکه نیز مورد بررسی قرار گرفت. نتایج به دست آمده نشان   می دهد ایده ی شبکه کپسولی با انجام تنظیمات متناسب می تواند بر روی مجموعه داده های پیچیده نیز به نحو مطلوبی مورد استفاده قرار گیرد.
    کلیدواژگان: شبکه کپسولی، دسته بندی، تصاویر پزشکی، تابع هزینه، تابع فعال سازی
  • میلاد منفرد*، عباس کوچاری صفحات 79-89
    امروزه بارکد ها نقش پررنگی در صنایع مختلف ایفا می کنند و در بین بارکد های دوبعدی معروف ترین آن ها یعنی کد QR (کد پاسخ سریع) رشد روز افزونی داشته است. هدف اصلی این مقاله ارایه ی روش رفع نویز مبتنی بر شبکه ی عصبی عمیق خود شناس است که با استفاده از آن بتوان QR های مخدوش غیر خوانا را دوباره به حالت خوانا باز گرداند. برای ایجاد نویز و اعوجاج  بر خلاف مقالات دیگر که از شبیه نویز استفاده و آن را به تصویر اضافه کردند ، از چالش استخراج QR نهان نگاری شده درون یک تصویر رنگی استفاده شده تا با جمع آوری داده هایی از جهان واقعی ، ارزیابی جامع تر و واقعی تری از کیفیت و خوانایی QR های رفع نویز شده با روش ارایه شده را داشته باشیم. در نتیجه دیتا ست جامعی از QR های مخدوش حاصل از سه رویکرد استخراج نهان نگاره متفاوت بعد از حمله ی اسکرین-دوربین  را ایجاد نمودیم. برای فرایند رفع نویز نیز سه شبکه ی MCNN  مستقل برای هر یک از سه رویکرد استخراج استفاده شده است  که ارتقاع یافته از شبکه ی U-net می باشد.
    کلیدواژگان: حذف نویز، بازسازی کد QR، شبکه ی عصبی خود شناس، MCNN، یادگیری عمیق، یادگیری ماشین
|
  • Mostafa Nezamzadeh, Vahid Mehrdad * Pages 1-17
    The Brain tumor is one of the most important factors in mortality, so timely and appropriate detection is necessary to treat the tumor. In this study, 3D images are used to detect tumor. 3D images have depth and therefore, blind spots that may be hidden in 2D images can be seen. This paper presents a threshold method using Kapur’s entropy to detect brain tumors in 3D MRI images. In the proposed method, in order to differentiate the tumor area, the images are normalized in three dimensions, which has the advantage that the brightness level of the tumor is brighter than the rest of brain. In the next step, the 3D image is sliced in 3D and converted into 2D images. By applying two steps of Kapur’s entropy to two-dimensional images of the tumor area with points that have a higher brightness level than the threshold value are separated. To remove Additional areas, a 3D image is first made by stacking 2D images on top of each other, and then the 3D area is extracted using a 3D morphology filter and flood-fill algorithm the advantages of the proposed method is the removal of excess areas while preserving the tumor area and covering all angles of the tumor in three dimensions. To show the efficiency of the proposed method, the BRATS database was used. The evaluation results for detecting tumor were evaluated with similarity, sensitivity and specificity coefficients of 0.9407, 0.9235 and 0.999, respectively, which have better performance than the proposed methods.
    Keywords: 3D MRI, 3D morphology, flood fill algorithm, Kapur's Entropy
  • Mohsen Tabejamaat, Hoda Mohammadzade * Pages 19-34
    This paper proposes a novel 3D action recognition technique which uses the skeletal information extracted from depth image sequences. First, each action is represented by a multidimensional time series where each dimension represents the position variation of one skeleton joint over time. The time series is then mapped into the kernel Hilbert space using a metric defined by Dynamic Time Warping distance. Afterwards, regularized Fisher strategy is used to remap the kernel space into a discriminative one. This incorporates the correlation-distinctiveness relationship of the sequences into the recognition process and also mitigates the curse of dimensionality effect in the kernel space.  Unlike traditional kernel functions, the time warping used in the mapping strategy makes the kernel space robust to the temporal shift variations of the motion sequences. Moreover, our method eliminates the need for a complex design method for extracting the static and dynamic information of a motion sequence. A set of extensive experiments on three publically available databases; TST, UTKinect, and UCFKinect demonstrates the superiority of our method compared to a set of baseline algorithms.
    Keywords: action recognition, Dynamic time warping, kernel trick, embedded feature representation
  • Zahra Davoodi * Pages 35-48
    In this paper, a no-reference metric for evaluating the quality of multi-distortion images is introduced. This metric is based on a combination of structural features and image brightness. First, the structural features and brightness of the image, which change drastically due to distortion, were extracted. For different datasets, an optimal combination of properties was obtained by the particle swarm optimization algorithm. The optimal combination of features was supported by regression vector regression to the training model so that the trained model could measure the quality of other images. Due to the comprehensiveness of the selected features, this metric has the ability to measure image quality with a variety of degradations. According to the results of the implementation of the criterion, we had a significant improvement and also according to the research, the optimal combination of image properties has been obtained to investigate specific degradations, which can be useful for further research in the future.
    Keywords: no reference image quality assessment, Multi-destruct images, feature combinations, particle optimization algorithm
  • Seyedeh Farveh Musavi, Azam Karami * Pages 49-63
    Estimating crop yields and examining growth trends in different species of a crop in precision agriculture is very important for researchers and agricultural experts. In this article, a new technique based on one-stage objection detection called GP-YOLOv5 for automatic tassel detection in the UAV images of a large maize field at different growing stages and flowering date estimation is presented. Because of the existing small number of tassels in the early stages of growth, GP-GAN is used to augment the training data. After that, the hyperparameters of the YOLOv5 are optimized to increase the tassel detection accuracy. Plant counting using CenterNet in the early stage of growth is calculated to determine the flowering date. Finally, well-known interpolation and prediction algorithms are used to estimate the flowering date. The proposed method is compared with two state-of-the-art methods based on detection “CenterNet” and regression “TasselNetv2+” technique for tassel counting. The average accuracy of GP-YOLOv5 for tassel detection is around 96.81 % and for the CenterNet method, it is around 81.78 %, which indicates that the accuracy of the proposed method is higher than the CenterNet technique.
    Keywords: Generative Adversarial Networks, Deep Learning, YOLOv5, Tassel Detection, Flowering Date Estimation
  • Narges Hasanpour, Omid Eslam, Hadis Mohseni * Pages 65-78
    Deep networks are a type of learning method that can model high-level relationships in data. One of the most widely used types of deep models are convolutional networks that are able to model spatial dependencies in images using convolutional layers, but do not consider the hierarchical spatial structures within the image. Capsule networks are one of the new ideas proposed for modeling the hierarchical structure of features in the image, which use grouped capsules or neurons with a dynamic routing algorithm. Despite the effectiveness of the idea of ​​capsule networks on simple data sets, the performance of these networks on complex data is still unclear. In this paper, the performance of this network is examined on a complex skin cancer dataset, which has been selected due to the importance of skin lesions diagnosis in medicine, the complexity and huge number of images and the imbalance of categories. In order to better extract the diversity of skin lesions, changes were made in the initial layers of the network. Also, due to the imbalance in the mentioned data set, changes were made in the cost function of the network. The effect of using different activation functions in the network was also investigated. The results show that the idea of ​​a capsule network can be used optimally on complex data sets by making appropriate adjustments
    Keywords: Capsule network, category, Medical images, Cost Function, Activation Function
  • Milad Monfared *, Abbas Koochari Pages 79-89
    Todays, barcodes play a significant role in various industries, and among the two-dimensional barcodes, the most famous one is QR code (Quick Response code) that has grown widely.The main purpose of this paper is to provide a noise-cancellation method based on a autoencoder deep neural network that can be used to restore distorted and illegible QRs to readability.To create noise and distortion, unlike other articles that used added simulated noise to the image, the challenge of extracting QR coded into a color image was used to collect more realistic data by collecting real-world dataset. therefore we Have more reliable estimation of proposed QRs noise-canceling method. As a result, we created a comprehensive data set of distorted QRs from three different watermark extraction approaches after the screen-camera attack. For the noise reduction process, three independent MCNN networks ( which is an upgrade from the U-net network) are used for each of the three extraction approaches,
    Keywords: Noise Removal, QR code reconstruction, auto-encoder neural network, MCNN, Deep Learning, Machine Learning